• 検索結果がありません。

講義資料 計算生命科学の基礎Ⅳ (→終了しました) | 計算科学教育センター

N/A
N/A
Protected

Academic year: 2018

シェア "講義資料 計算生命科学の基礎Ⅳ (→終了しました) | 計算科学教育センター"

Copied!
19
0
0

読み込み中.... (全文を見る)

全文

(1)

ゲノミクスからの構造インフォマティクス

白井 剛

(長浜バイオ大)

遠隔インタラクティブ講義「計算生命科学の基礎Ⅳ」

「計算科学と生命科学の融合:基礎から医療・創薬・人工知能の応用まで」 第1編 ゲノムから構造までのインフォマティクスの基礎

1)

疾患ゲノミクスの解析には、タンパク質複合体の立体構造情報が必要である。

2)

タンパク質複合体の立体構造解明には、構造インフォマティクスが必要である。

3)

構造インフォマティクスでどのような事がわかるか?

4)

現在の構造インフォマティクスには何が欠けているか?

エタノール(お酒) アルコール分解酵素

(ADH) アセトアルデヒド分解酵素(ALDH2)

お酒を分解する酵素の遺伝子が違うと

1塩基多型(SNP)とお酒の強さ

酢酸(お酢) アセトアルデヒド

1) お酒(エタノール)は体内で、アルコール分解酵素によってアセトアルデヒドに、アセトアル

デヒド分解酵素(ALDH2)によって酢酸に代謝される。

2) アジア人の多くは不活性なALDH2の1塩基変異対立遺伝子(SNPアリル)を持つ。これにより

アセトアルデヒドを迅速に代謝できず、有害なアセトアルデヒドが体内に蓄積しアルコール 中毒を起こす(ただし代謝は遅いものの、別の酵素ALDH1による迂回反応がある)。

ALDH1�

(2)

...ggcagccattactcgtcctcactcccacaccaacaacctc catccagtgcctgccGcagccgcttctgctgcagcggggacgc gtgcaagtacaggaggatatccgcttccattactgcgctgcgc cgcggcggaaacagcagcagcagagggg...

...ggcagccattactcgtcctcactcccacaccaacaacctcc atccagtgcctgccAcagccgcttctgctgcagcggggacgcgt gcaagtacaggaggatatccgcttccattactgcgctgcgccgc ggcggaaacagcagcagcagagggg...

G/G  

Gタイプ Aタイプ

PDB 1o02 �

ALDH2 変異型E487K ALDH2 野生型E487

A/A  

E

487

K

G/A  

活性   1  

0  

変異ALDH2の代謝効率は立体構造により説明される

1/16  

1)  変異型ALDH2は、1箇所のG(グアニン)がA(アデニン)に変異したSNPであり、タンパク質ではサブユ ニット界面近くのグルタミン酸(E)がリシン(K)に変異する。

2)  父方/母方の遺伝子がG/Gの場合の活性を1とするとA/Aでは0(不活性)になる。しかしG/Aでは半分で はなく1/16になる。これはALDH2が4つのタンパク質(サブユニット)が複合体を作って働くので、完 全な複合体は(1/2)4=1/16になるため。

遺伝子型  

Leu 正常なEGFR遺伝子 …GGGCTGGCC

x

患者のEGFR遺伝子 …GGGCGGGCC

Arg

なぜ病気になるのか?

858番目のLeu!Arg (L858R)

EGFR(一部)�

成長因子(EGF)

EGFR

ATP

細胞増殖シグナル

正常細胞

EGFR(L858R)

無制御細胞増殖=がん

肺がん細胞

1)  細胞の増殖は制御されている。成長因子(ホルモン)が分泌される!細胞表面の上皮成長因子

受容体(EGFR:タンパク質)に結合!EGFRが2量体化!細胞内でATPを結合しリン酸化され

る過程を経て、細胞核に増殖(分裂)シグナルが伝達される。

2)  肺がん患者の多くで、EGFRの858番目のアミノ酸Leu(ロイシン)がArg(アルギニン)に変異

(3)

L858R イレッサ処方

Mok et al. New Engl J Med. 361, 947(2009)

無増悪生存率

0.0 0.2 0.4 0.6 0.8 1.0

0 5 10 15 20 25

対照群

EGFR(一部)� イレッサ

EGFR(L858R)

無制御細胞増殖=がん

肺がん細胞

EGFR(L858R)

イレッサ処方

肺がん細胞 イレッサ

ATP

なぜ薬で病気が治るのか?

1) EGFRはATPを結合・分解しないと増殖シグナ

ルを送れない。これを特異的にブロック(阻害) すればがん細胞の増殖を止められる。

2)  抗肺がん薬イレッサは、 L858RのEGFRの

ATP結合部位に特異的に結合し、ATPの結合を 阻害する。

T790M� L858R�

Shyamala et al., N Engl J Med 359, 366 (2008)

無増悪生存率

0.0 0.2 0.4 0.6 0.8 1.0

0 5 10 15 20 25

L858R イレッサ処方

T790M/L858R イレッサ処方

 Thr イレッサ有効EGFR遺伝子 …ATCACGCAG

x

イレッサ耐性EGFR遺伝子 …ATCATGCAG

Met

EGFR(L858R)

イレッサ

EGFR(T790M/L858R)

無制御細胞増殖=がん ATP

なぜ薬が効かないのか?

1) ところが、L858Rに加えてEGFRの790番目のアミノ酸Thr(トレオニン)がMet(メチオニン)

に変異(T790M/L858R)するとイレッサが結合しにくくなり、再び無制御状態で増殖シグナ ルを発生する。

2) これが、抗がん剤や抗ウイルス剤を服用し続けると現れる薬剤耐性の原因の一つである。薬

剤という選択圧を与えることで、耐性細胞や耐性ウイルスの細胞内「進化」を助けてしまう。

イレッサ処方 肺がん細胞

(4)

Step1 研究 Step2開発

    Step3 生産   Step4 MR Step5 育薬

開発 研究 最適 化研 究 探索 研究

治 験

届 承

認 申 請

治験 (第1∼3

相)

発 売

工業化研究

承 認 取

得 工場 生産 医療情報活動 定期報告 安全性

再 評 価

2 3年 3 5年 3 7年 1 2年

Low hanging-fruit (容易なドラッグターゲット)の枯渇

10億ドルあたりで出来る新薬の数

1)

新薬研究開発費は高騰し続けており、探索研究のアウトソーシング/オープンイノ

ベーション化が必要とされる。

Bemstein Research The long view ‒R&D Productivity (Sep. 30 2010

創薬プロセス

特許20(+α)年

NIH:A Catalog of Published Genome-Wide Association Studies(http://www.genome.gov/GWAStudies)

1

2 3

4 5 6 7 8 9 10 11 12

13 14 15 16 17 18 19

OR > 1 & p < 5x10-8�

20 21 22 X Y

全ゲノム相関解析(GWAS = Genome Wide Association Study)

1)  GWASとは、ゲノム全体をカバーする多数の1塩基多型(SNP)や繰り返し配列多型の遺伝子型を

(5)

0 2 4 6 8 10 12 14 16 18 20

オッズ比

原因遺伝子数

1)  下のグラフは、日本人の3大疾病である癌、心筋梗塞、脳卒中(あわせて日本人の 53%の

死因)、および国民病とも呼ばれる糖尿病について行われたGWASによって発見された関連 遺伝子変異のオッズ比(罹患リスク)分布を示したものである。

2)  オッズ比の平均は1.23に過ぎない。また2を越えるオッズ比を示す原因遺伝子が見つかる

ことは極めてまれ。これは単一の遺伝子の変異で説明できる病因はほとんど見つからないこ とを示している。

平均 1.2

よくある病気(Common diseases)のオッズ比

Muhammed et al., Nature Biotechnology 25, 1119-1126 (2007)

Drug‒Target Protein network (DTP network)

1)

創薬ターゲット(=病気の原因)は遺伝子/タンパク質ネットワーク、すなわちPPI

(6)

配列ゲノムと構造ゲノムのdigital-divide

1)

配列データサイズと構造

データサイズの乖離は加

速している。

2)

ゲノム(配列)データはす

で に 多 く の 生 物 に つ い

て complete であるのに

対して、構造データはす

べての生物について

in-complete である。

3)

このギャプを埋めること

が構造インフォマティク

ス(による分子モデリン

グ)の主要な役割の1つで

ある。

0 50,000,000 100,000,000 150,000,000 200,000,000 250,000,000

1982 1987 1992 1997 2002 2007 2012 2017

INSDC growth

http://www.ddbj.nig.ac.jp/breakdown_stats/dbgrowth-e.html

wwPDB growth

125,000 100,000 75,000 50,000 25,000

1972 1980 1990 2000 2010 2016

エントリー数

ヒトゲノム計画

構造ゲノミクス エントリー数

https://pdbj.org/info/statistics

構造ゲノミクス(structural genomics)

1)  2004年に解読宣言のあったヒトゲノムに代表される、全遺伝子配列に対して解析・研究

を行う立場をゲノミクスという。

2)  構造ゲノミクスとは、ポスト(後)ゲノミクスの課題として、「代表タンパク質」の立体構

造を解析・研究することをいう。構造ゲノミクスに対して1)を配列ゲノミクスという場合 もある。

日本:タンパク3000

USA :PSI1 PSI2 PSI3

(Protein Structure Initiative)

EU : SPINE

(

Structural Proteomics In Europe)

ターゲットタンパク 創薬等基盤プラットフォーム

2002-2006 2007-2011 PDIS 2012-2016 BINDS 2017- 2002-2006

2000-2005 2005-2010

2010-2015

Human Genome Project 1990-2003

(7)

PPIインタフェース構造の情報は既に十分存在する(?)

Structural space of protein-protein interface is degenerate close to complete, and highly connected  Gao & Skolnick., PNAS, 107, 22521 (2010)

1)

PDBのPPI構造を分類すると90%程度はいずれ

かの既知インターフェース(分子間の接触面)に類

似している(残基比較で 3.5Å RMSD, 0.75

coverage程度)。PPIインターフェース構造は∼

1000種類に分類可能である。

2)

80%程度のPPIインターフェース構造は、7種類

の代表的構造に関係づけられる。

Structural coverage of the proteome for pharmaceutical application Somody et al. Drug Discovery Today (2017)

創薬ターゲットの立体構造は既に十分存在する(?)

98% 90% 70% 50% 30%

Human drug targets Nuclear receptor

Overall human proteome Overall residue

coverage

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Structural representation

3.4%

0.4%

100%

100% Percentage of reference proteome

1)

ヒト遺伝子( 21,000)のうち、694(3.4%)遺伝子/タンパク質がドラッグターゲッ

トである。

2)

ヒトタンパク質の70%(遺伝子数)が構造既知( 30%のアミノ酸配列一致度を示す

(8)

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000

2008 2009 2010 2011 2012 2013 2014 2015

ゲノム生物学

vs

複合体構造ゲノミクス

No. complete genomes based on NCBI genome

(http://www.ncbi.nlm.nih.gov/genome/)

No. non-redundant hetero-protein complex structures based on SIRD

(http://sird.nagahama-i-bio.ac.jp/sird/) >25% identity, >75% mutual coverage,

unique composition

Year

No.

entry

1) 配列データベース中の既知ゲノム数と構造データベース中の既知ヘテロ複合体構

造数は同じくらいである。

X線自由電子レーザー(XFEL)による微結晶/単粒子X線回折

SAKURA (SPring8)

クーロン爆発

微結晶回折

単粒子(分子)回折

微結晶 X線

インジェクタ

分子 X線

http://xfel.riken.jp/

1)  高輝度・高コヒーレントX線によって、微結晶X線回折実験、さらには単粒子X線回折実験が可能になる。

(9)

原子分解能クライオ電子顕微鏡単粒子解析

1)  コンピューター制御される高性能

のステージ(多試料搭載・交換可 能)を搭載した専用のクライオ電子 顕微鏡の開発,CMOS電子直接検 出器(直接カウントによる画像ノイ ズ・劣化軽減),新規アルゴリズム (Relion ベイズ統計による電顕画 像解析)による解析ソフトウェアの 登場により、準原子分解能(near-atomic resolution: 2 3A分解能) での低温電顕単粒子解析(cryo-EM single particle analysis)が可能に なった。

2)  2 3A分解能ではタンパク質の2次

構造を明確に識別可能であり、場 合によっては側鎖のモデリングも できる。事実上X線結晶解析に匹 敵する精度の分子構造が得られる。

Wang et al., Nature Method, 12, 225 (2015)

「あらゆる方法を使う」方法

超遠心 免疫染色 In vitro 結合 電顕 免疫電顕 インフォマティクス

Alber et al., Nature 450, 683-694 (2007)

1)  核膜孔複合体は核<->細胞質の高分子輸送を制御し、細胞内のタンパク質局在の管理に重要。分子量

120MDa、約30の異なるタンパク質からなる超分子で、実験的構造解析は極めて困難である。

2)  そこで、実験(超遠心..結合アッセイ..構造解析)から計算機解析(インフォマティクス)までを統合して、

一つの複合体構造を決定(予測)する。

(10)

創薬等支援技術基盤プラットフォーム http://pford.jp/p4d/sac1/analysis.html

相関構造解析(correlated structure analysis)

1)

様々な実験+理論手法からのデータを総合して生体超分子の構造・ダイナミク

ス・機能を解析する研究を、

相関構造解析(correlated structure analysis また

は Hybrid/Integrated structure analysis)という。

バイオインフォマティクス

実験データ

(Y2H・プルダウン・免疫共沈・FRET・BiFC)

アレイデータ

CM・FR・

ab initio

データあり

データなし

ドッキングシミュレーション・モデリング (docking-simulation)

ab initio・経験的スコア関数 ドッキングポーズ生成+ポーズの評価

超分子構造模型(モデル)

PPIモデリング:

フローチャート

共発現・動態相関解析

ゲノムデータ

共進化解析・ロゼッタストーンなど

相互作用する分子の構造データ

構造データあり

構造データなし

知識ベースモデリング (knowledge-base modeling)

(11)

gene 1

gene 4 gene 2

gene 5 gene 3

階層的 非階層的

図2: 遺伝子のクラスタリング gene 1

gene 4 gene 2

gene 5 gene 3

発生過程(日数)

遺伝子発現量

gene 1

gene 2

gene 3 gene 4

gene 5

タンパク質A タンパク質B

タンパク質C

相同 相同

ゲノム1

ゲノム2

相互作用するタンパク質を予測する方法

1)  共発現・動態相関解析

マイクロアレイデータなどを使って、遺伝子 発現の増減が組織・発生時期・細胞応答など に対して相関する(挙動を共にする)遺伝子を 探索する方法。高い相関を持つ場合にタンパ ク質レベルで相互作用していると推定される。

2)ロゼッタストーン

複合体を形成するタンパク質の遺伝子は、進 化の過程を通じて共存する必要がある。様々 な生物のゲノムを比較して、共存確率の高い タンパク質を予測する方法。

 特に左図のように、ある生物(ゲノム1)で は別の遺伝子にコードされているが、他の生 物(ゲノム2)では1つのタンパク質のドメイン として存在するような関係は、タンパク質A とBが同時に発現し同じように局在する必然 を示唆するので、ロゼッタストーンと呼ばれ、 相互作用の有力な証拠とみなす。

相互作用するタンパク質を予測する方法

3)共進化解析・ミラーツリー法 複合体を形成するタンパク質の遺伝 子は、類似した進化過程を経る傾向 がある。

  典型的な例としては、分子系統樹 のある枝でタンパク質Aの進化速度 が加速/減速している場合に、相互作 用するタンパク質Bの進化速度も加 速/減速する。したがって系統樹の樹 形は類似する(系統樹が鏡に写した関 係になる=ミラーツリー)。

  系統樹の類似性は、もっとも簡単 には生物種間の進化距離マトリクス の相関係数を求める。

タンパク質A

b 生物種a

c d e

f g

タンパク質B 生物種a

b c d e f g

タンパク質A

b 生物種a

c d e

f g

タンパク質C 生物種a b c d e f g 相互作用

a b c d e f g

a b c d e f g

a b c d e f g

a b c d e f g

タンパク質B タンパク質A

R

(12)

PPI予測データベース

Sxklarczyk et al., NAR 43, D447 (2015) http://string-db.org/

1) STRINGは共進化解析・ロゼッタストーンによ

るPPI予測の総合的なデータベースであり、以 下のバイオインフォティクス予測および実験 データ、文献データが集積されている。

a)  Neighborhood ゲノム上の局在による予測(主 に原核生物のオペロンのように機能的にk関連し た遺伝子がゲノム上でクラスタする傾向を利用 する予測法)

b)  Gene Fusion 遺伝子融合(ロゼッタストーン)に よる予測

c)  Cooccurrence ゲノムの共存在による予測 d)  Coexpression 共発現による予測 e)  Text mining による予測

タンパク質A

(レセプター) タンパク質B (リガンド)

複合体構造(ドッキングポーズ)

保存残基(マルチプルアラインメント)

...NWVVTAAHCGVTT...LTINNDITLLKL... ...NYLVTGAHAGVST...V---NDVTVFKH... ...NWVVTAAHCALSS...LTIQNDIVLLRV... ...AICFAVYHG-GSR...---EQDLVAWHG... ...GVCWALYHC-GSK...---DQDLIGWPA...

ドッキングポーズを予測する方法

1) ドッキングポーズの生成

結合する一方のタンパク質をレセプター、他方をリガンドとし た時、レセプターに対してリガンドの相対配置をドッキング ポーズという。

  FFT法(表面の静電ポテンシャルや疎水性などの性質をフーリ エ変換することで、高速に相関をとる)やハッシュ法(水素結合や 静電相互作用などの安定化相互作用部位の相対配置のリストを あらかじめ作成し、高速にマッチングする)などの高速探索法を 用いて、多数のドッキングポーズを生成する。

2) ドッキングポーズの評価

関数を設定してドッキングポーズの安定性を評価する。

a)ab initio法 分子(動)力学計算に用いるのと同様、あるいは

簡素化されたエネルギー関数を用いて評価する

b)  経験的方法 相互作用部位が進化の過程で保存される傾向を

利用して保存傾向を評価する方法、あるいはアミノ酸ごとに 相対的に相互作用部位に関与する傾向値[もっとも簡単には、 対数オッズlog (アミノ酸iが相互作用部位に観察される相対 頻度)/(同アミノ酸が分子表面一般に観察される相対頻度)]を スコアとするなど様々な経験的評価方がある。

(13)

lRMSD: レセプター(通常大きい 方のタンパク質)を重ね合わせた 時の正解-予測リガンド(小さい方 のタンパク質) 主鎖間のCαの正 RMSD (Å)

iRMSD: 正解-予測レセプター/リ ガンド主鎖間の相互作用に関与す る領域のみのCαのRMSD (Å)

fnat :正解構造で相互作用に関

与するアミノ酸残基ペアのう ち予測構造でも相互作用して いるものの割合

タンパク質ドッキング精度の評価基準(CAPRI)

a distance cut-off of 8 A between any two CB atoms (or CA for Gly) to define interface residues a distance cut-off of 4 A between any two atoms to define native contacts

a clash distance of 3 A

Gao and Skolnik, Proteins. 79, 1623‒1634 (2011)

1)  ドッッキングの結果(ドッキングポーズ)の評価には、相互作用に関与する残基ペアの一致率(fnat), リガ ンド側の予測-正解の主鎖rmsd(lRMSD)、相互作用に関与する残基のみの主鎖rmsd(iRMSD)が使われ る(ドッキングコンテストCAPRIの基準)。

タンパク質ドッキング精度

Overall the success rates (at least one acceptable prediction for a benchmark case) ranged between 5% and 16% for the

Vreven et al., J Mol Biol 427, 3031‒3041 (2015) Gao and Skolnik., Proteins 79, 1623 (2011)

High: fnat 0.5 & (lRMSD 1Å ¦¦ iRMSD 1Å)

Medium: (fnat 0.5 & lRMSD > 1Å & iRMSD > 1Å) ¦¦ (fnat 0.3 & fnat < 0.5 & lRMSD 5Å & iRMSD 2Å)

Acceptable: (fnat 0.3 & lRMSD > 5Å & iRMSD > 2Å) ¦¦ (fnat 0.1 & fnat < 0.3 & lRMSD 10Å & iRMSD 4Å)

Incorrect: fnat < 0.1 ¦¦ (lRMSD > 10Å & iRMSD > 4Å)

1)  Fnat, lRMSD, iRMSDにより ド ッ キ ン グ ポ ーズ は h i g h , medium, acceptable(通常こ こまでが正解), incorrectに分 類される。

(14)

IntAct

A

B

1afzA

2hjkB

1kl2B 2hhjA 3adfC

4mi3D

1ssaA 1ch4B 2dieA

2hjkA 4mi3E

3fgiB …

Contents as of Jun. 2014

Number of structures: 93,900 Number of subunits: 241,805

PDB Contents as of Oct. 2014

Number of Interactions: 460,871

Number of Proteins: 77,009

Number of Experiment: 34,785

タンパク質複合体の知識ベースモデリング

Protein-Protein Interaction Database

Protein Structure Database

1)  相互作用データベース(IntAct)とタンパク質構造データベース(PDB)を相関させて、

「すでに潜在的に知っている(はずの)」複合体構造の知識ベースモデルを構築する。

Tsuji et al., Scientific Reports 5:16341 (2015)

PPI

(Protein-Protein Interaction)

から複合体モデルを構築する

1)

残念ながら我々の知識は、ヒトのタンパク質複合体

(2体間相互作用ベース)の5 14%にすぎない。

2)

しかし、2024個のタンパク質からなる巨大相互作

用ネットワークの構造をすでに「知って」いる。こ

れを組み合わせることで、より大きな複合体の構造

を予測できる。

PPIグラフ

Both sides (in complex)

Both sides (independent) No template

One side

B

A

A

B

A

B

A

B

35% of predicted human PPI, when including all proteins >25% identical to human proteins

6568$ 14%$

38230$ 82%$ 1908$

4%$ 36$ 0%$

(15)

UBC12�

CDK3�

CDN1B�

CCNA2�

CKS1B�

SKP2�

SKP1�

CUL1�

NEDD8�

RBX1�

90°

!

CDK3� CCNA2�

CDN1B�

SKP1� SKP2�

UBC12� NEDD8�

CUL1�

RBX1�

CKS1B�

Mined Interface

Cyclin - Ubiquitin ligase complex model

Disease-related variants on mined interface

Fraction (%)

100�

0� 20� 40� 60� 80�

85%

Interface

!

Surface!

Known(template) Mined interface

Polymorphism!

261

!

37

!

1,262

!

Disease-related!

287(21%)

!

44(3%)

!

1,014(76%)

!

Unclassified!

218

!

22

!

714

!

Total!

766

!

103

!

2,990

!

1.6%

14%

p = 4.69 10­9

Molecular surface properties of supramolecular models

No variants on supramolcular models

■ Known interface ■ Mined interface ■ Exposed surface!

1)

3,200個のヒト超分子モデルが構築可能で、∼1,300のモデルに新規インター

フェースが存在する。

2)

44個の疾患関連変異が新規インタフェースにマッピングされる。そのうち10

(16)

遺伝形式と発現形式

遺伝形式 発現形式

Recessive 劣性

AR (Autosomal Recessive) 常染色体劣性

XR (X-linked Recessive) 伴性(X 連鎖性)劣性

Dominant 優性

AD (Autosomal Dominant) 常染色体優性

DN (Dominant Negative) 優性阻害

HI (HaploInsufficiency) ハプロ不全

GF (Gain-of- Function) 機能獲得

XD (X-linked dominant) 伴性(X 連鎖性)優性

非メンデル性遺伝 ミトコンドリア遺伝 (母性遺伝)

1)  疾患関連変異遺伝子は劣性(潜性)遺伝する場合が多いが、優性(顕性)遺伝する重大な疾

患データも蓄積してきている。

2)  優性(顕性)遺伝する疾患関連変異の発現形式は比較的複雑であり、疾患メカニズムの解

明が進んでいない。

Inter-domains

DNAs

Proteins

a

b

c

d

Homo-subunits

Hijikata et al., Scientific Reports 7:8541 (2017)

疾患関連変異の発現形式と分子間相互作用の相関

(17)

L600�

K637�

L706�

K673�

Q467�

E320�

pY701�

A267� Q271�

R274� K278�

DN mutations

AR mutations

CC�

DBD�

DNA�

SH2�

T385� G384

K286� Q285�

T288� N179�

Y170�

C174� M202�

D165�

GF mutations

CC�

DBD�

SH2�

Active form

Inactive form

CC�

Nt� DBD� Linker� SH2�

疾患関連変異の発現形式と分子間相互作用の相関: STAT1

1)

カンジダ感染症責任遺伝子(産物)STAT1上でAR, DN, GF変異はインター

フェースの種類と高い相関を示す。

Tsuji et al., to be submitted (2017)

Gene Detail Essential OMIM NCK1 Cytoplasmic protein NCK1 TRUE

PLCG1 1-phosphatidylinositol 4,5-bisphosphate phosphodiesterase gamma-1 TRUE

PIK3R1 Phosphatidylinositol 3-kinase regulatory subunit alpha TRUE SHORT syndrome ERBB3 Receptor tyrosine-protein kinase erbB-3 TRUE

疾患関連超分子へのGWASデータのマッピング

1)  ∼2,800のヒト超分子モデルに様々

なGWAS研究の結果がマッピング可 能であり、そのうち∼1,200モデル は統計的有意(p < 0.01)に特定の疾 患に結びつけられる(= 疾患関連超 分子)。

2)  しかし、2型糖尿病の例(左図)のよ

うに、複合体中心付近のサブユニッ トに同じ疾患関連変異がマップされ ない場合が多数認められる。

Insulin-like growth factor 1 receptor

SHC-transforming protein 1

(18)

構造インフォマティクスの

今後の課題と可能性

IDP(天然変性タンパク質)

Prot. Sci. 23, 539 (2014)

Wright and Dyson, Nat Rev Mol Cell Biol. 16, 18‒29 (2015) Sugase, Dyson, Wright, Nature, 447, 1021(2007) modified 1)  天然変性タンパク質(intrinsically disordered

protein;IDP)は生理的条件下で決まった三次元構造 をとることができないタンパク質である。Disorder状 態の「構造」は原子座標として表現が困難である。 2)  転写や翻訳といった細胞過程では重要な役割を果たし

ていると考えられる。このようなタンパク質は、リン 酸化などの翻訳後修飾によって部分的に標的タンパク 質と相互作用することが多い。

3)  多様なタンパク質と結合するためにコンフォーメー

ション調節できる、反応半径(リーチ)を伸ばす、標的タ ンパク質の入り組んだ構造にアクセス可能になるなど の構造的利点があると考えられる。

構造インフォマティクスの

今後の課題と可能性

IDP(天然変性タンパク質)

Ward et al., JMB, 337, 635 (2004) Lakoucheva et al., JMB, 323, 573 (2002)

1)  IDPは転写などの調節(regulation)など human cancer-associated proteins (HCAP)などに特に頻繁に見られ(5%程

度のタンパク質が100アミノ酸を超えるIDR(intrinsically disordered region)を持ち、ゲノム/プロテオームの無視で きない領域に相当する。

2)  IDP/IDRの予測は、主にアミノ酸組成に基づいて行われる(疎水性残基の含有量が少なく、極性残基・荷電残基が多く

含まれる傾向がある)。標準的な予測法としてはDISOPRED2 (http://bioinf.cs.ucl.ac.uk/psipred/)などがある。 3)   IDP/IDRの「構造」は原子座標で表現できない。したがって現在の構造インフォマティクスに融合しにくい。

(19)

4C (Chromosome Conformation Capture-on-Chip) 5C (Chromosome Conformation Capture Carbon Copy) 3C (Capturing Chromosome Conformation)

構造インフォマティクスの

今後の課題と可能性

Hi-C(染色体立体構造)

Nagano et al., Nature, 502, 59 (2013)

paired end sequencing

Hi-C (all vs all HTS Chromosome Conformation Capture )

1)  3C法(chromosome conformation capture)を基盤にしたHi-C法は空間 的に接近したゲノムDNA(染色体テリ トリー)をライゲートしpaired-end配 列解析と距離地図により染色体の「立 体構造」を解明する手法である。

2)  単一細胞Hi-C法では単細胞で解析を行

い、X染色体三次元構造モデルの構築 に成功している。染色体は一定の立体 構造をとるわけではないが、高頻度で 観測される染色体テリトリー・ドメイ ン構造や、染色体間の相互作用が存在 する。

3)  染色体はフラクタル構造(ヒルベルト

曲線)を取るとされる。

Nagano et al., Nature, 502, 59 (2013)

Dekker and Leonid, Cell, 164, 1110 (2016)

構造インフォマティクスの

今後の課題と可能性

Hi-C(染色体立体構造)

Nagano X染色体 コンフォメーション et al., Nature, 502, 59 (2013) 転写ファクトリー

1)  染色体立体構造は転写ファクトリーの形成などにも関与するが、これ

参照

関連したドキュメント

講師:首都大学東京 システムデザイン学部 知能機械システムコース 准教授 三好 洋美先生 芝浦工業大学 システム理工学部 生命科学科 助教 中村

  総合支援センター   スポーツ科学・健康科学教育プログラム室   ライティングセンター

 履修できる科目は、所属学部で開講する、教育職員免許状取得のために必要な『教科及び

 履修できる科目は、所属学部で開講する、教育職員免許状取得のために必要な『教科及び

  総合支援センター   スポーツ科学・健康科学教育プログラム室   ライティングセンター

向井 康夫 : 東北大学大学院 生命科学研究科 助教 牧野 渡 : 東北大学大学院 生命科学研究科 助教 占部 城太郎 :